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基于 自学 习 近 邻 图 策略 的 短文 本 匹配 方法 
^p X, EAR ØWRE, XE 
(广东 工业 大 学 计算 机 学 院 ,， 广州 510006) 


摘 要 : 针对 自然 语言 处 理 中 的 文本 匹配 问题 ， 提 出 一 种 基于 自学 习 文 本 近邻 图 框架 的 深度 学 习 模 型 ， 以 处 理 短文 
本 匹配 问题 。 文 本 近邻 图 可 使 用 词 谈 入 将 文本 转换 为 向 量 形式 ， 再 通过 构建 文本 相似 度 关系 矩阵 获得 ， 可 表达 文本 
样本 的 近邻 关系 。 现 有 方法 通常 构造 静态 的 近邻 图 ， 这 些 方 法 一 方面 依赖 先 验 知 识 ， 另 一 方面 难以 获得 句子 对 的 最 
优 表示 。 因 此 ， 提 出 了 利用 迹 生 卷 积 神经 网 络 学 习 更 优 的 动态 更 新 的 近邻 图 。 该 模型 在 Quora 数据 集 上 的 准确 率 和 
Fl 值 分 别 是 84.1596 79.88%， 在 MSRP 数据 集 上 的 准确 率 和 了 1 值 分 别 是 74.55% 和 81.63%。 实 验 表 明 ， 提 出 的 模 
型 能 有 效 地 提高 文本 识别 和 匹配 的 准确 举 。 

关键 词 : 文本 匹配 ， 自 学 习 近 邻 图; FAA; 享 生 卷 积 神 经 网 络 
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Self-adaptive affinity graph learning for short text matching 


Fu Cong, Li Liuwu, Yang Zhenguo, Liu Wenyin 
(School of Computer Science, Guangdong University of Technology, Guangzhou 510006, China) 


Abstract: For text matching problems in natural language processing, this paper proposed a deep learning model based on 
self-adaptive affinity graph learning framework for short text matching. The affinity graph can be converted into a vector 
form using word embedding, and then obtained by constructing a text similarity relationship matrix, which can express the 
neighbor relationship of the text sample. Current methods usually construct static affinity graphs, which rely on prior 
knowledge and hard to obtain the optimal representation of sentence pairs. Therefore, this paper proposed to use the 
Siamese CNN to learn the affinity graph of better dynamic updates. The accuracy and F1 values of the model on the Quora 
dataset are 84.15% and 79.8896, respectively, and the accuracy and F1 values on the MSRP dataset are 74.5596 and 81.6396, 
respectively. Experiments show that the proposed model can improve the accuracy of text recognition and matching 
effectively. 

Key words: text matching; self-adaptive affinity graph learning; word embedding; siamese CNN 


深度 学 习 技术 在 解决 自然 语言 处 理 相关 问题 中 取得 了 越 来 越 


EIL. 多 的 突出 表现 外 。 对 于 问答 系统 文本 相似 性 的 检测 ， 本 文 提 
近年 来 ， 在 互联 网 的 高 速 发 展 下 ， 网 络 上 的 信息 可 以 被 出 了 基于 深度 学 习 的 AutoLMP Cauto-learning match pyramid) 
bs 人 们 越 来 越 方 便 地 获取 到 ， 由 于 网 络 信息 的 爆炸 性 增长 ， 使 模型 ,采用 自学 习 方式 生成 的 文本 内 容 信 息 图 和 Pang 的 方法 
CS 得 文本 数据 越 来 越 多 ， 因 此 从 这 样 巨 大 的 知识 库 里 搜索 到 自 得 到 的 文本 相似 度 图 共同 组 成 一 幅 表达 丰富 的 二 通道 近邻 图 。 
己 需 要 的 信息 便 成 为 一 个 富有 挑战 性 的 任务 趾 。 在 这 种 需求 这 两 个 通道 上 对 应 的 像素 值 都 是 来 自 相 同 的 两 个 单词 向 
下 ， 社 区 问答 (community question answering, CQA) 系统 应 量 ， 一 个 像素 值 代表 由 SCNN 学 习 到 的 文本 内 容 信息 ， 另 一 
运 而 生 ， 逐 渐 成 为 一 种 非常 受 欢 迎 的 互联 网 应 用 ， 如 雅虎 问 个 像素 值 代表 通过 先 验 知识 计算 出 来 的 文本 相似 度 信息 ; 然 
答 、 新 浪 爱 问 和 百度 知道 等 ,用 户 可 以 在 问答 社区 提交 问题 ， 后 经 过 层级 CNN 提取 出 句子 中 丰富 的 语义 信息 和 词 与 词 之 
也 可 以 回答 其 他 用 户 提 出 的 问题 。 现 代 信 息 检索 系统 虽然 已 间 的 关系 ， 层 级 CNN 能 够 从 词 到 句子 水 平 提取 出 更 复杂 更 
经 能 够 基本 满足 用 户 对 于 信息 查找 的 需求 ， 但 在 检索 过 程 中 丰富 的 匹配 信息 ; 最 后 在 相似 问题 匹配 和 释义 识别 两 个 任务 
并 未 直接 提供 有 用 的 相关 信息 ， 用 户 需 要 阅读 大 量 相 关 文档 上 进行 实验 ， 结 果 表 明 采 用 的 方法 表现 出 了 良好 的 效果 。 
才能 找到 自己 需要 的 信息 。 因 此 目前 的 搜索 引擎 并 不 能 完 " 
满足 用 户 对 搜索 质量 的 高 要 求 。 如 何 从 这 样 庞大 的 信息 网 络 l 相关 理论 
中 搜索 到 对 自己 有 用 的 信息 ?如 何 让 信息 搜索 的 效率 和 质量 1.1 自然 语言 处 理 与 卷 积 神经 网 络 


更 高 ? 针对 上 述 问题 研究 发 现 ， 对 用 户 提 出 的 问题 进行 相似 随 着 词 向 量 B1、 分 布 式 特 征 表 示 和 神经 网 络 语言 模型 只 
性 检测 ， 进 而 把 最 相关 的 优质 答案 推送 给 用 户 是 解决 这 类 搜 等 的 兴起 和 发 展 ， 深 度 学 习 方 法 在 自然 语言 处 理 领域 发 挥 了 
索 问 题 的 有 效 方法 。 随 着 深度 学 习 方 法 在 自然 语言 处 理 — 越 来 越 重要 的 作用 ， 这 里 主要 对 CNN 在 NLP 领域 的 应 用 做 
(natural language processing,NLP) 应 用 方面 越 来 越 受 欢迎 ， 一 个 详细 的 介绍 。 由 于 CNN 在 空间 上 共享 参数 ， 从 而 减少 
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了 神经 网 络 中 参数 的 个 数 。 CNN 通过 多 层 训 练 的 网 络 空间 结 
构 铝 ， 不 仅 在 很 大 程度 上 减少 了 参数 量 ， 而 且 还 提高 了 训练 
效率 ， 避 免 了 全 连接 网 络 因为 参数 过 多 不 好 训练 以 及 梯度 弥 
散 的 问题 。 此 外 ， 在 文本 分 类 中 CNN 模型 也 取得 了 不 错 的 
效果 ,该 模型 最 初 是 为 计算 机 视觉 而 发 明 的 ， 后 来 被 证 明 对 
NLP 有 效 ， 并 且 在 语义 分 析 、 查 询 检索 向 、 句 子 建 模 等 方面 
都 取得 了 优异 的 成 果 。 众 所 周知 ，CNN 模型 一 开始 是 普遍 应 
用 在 图 像 领域 的 ， 经 过 预 处理 ， 每 一 个 图 像 的 高 和 宽 具 有 相 
同 的 像素 值 ， 之 后 对 该 图 像 做 卷 积 操 作 。 但 文本 和 图 像 的 处 
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c) word2vec 是 2013 年 由 Mikolov 等 人 BJ 提出 的 , 这 种 表 
示 方 法 能 够 有 效 地 降低 词 向 量 的 维度 ， 分 为 两 种 模型 : 一 种 
是 Skip-gram 模型 ， 它 是 通过 输入 某 个 词语 来 预测 该 词语 的 
上 下 文 ; 另 一 种 是 连续 词 袋 (continuous bag-of-words, CBOW) 
模型 ,该 模型 是 从 上 下 文 对 目标 词 的 预测 中 学 习 到 词 向 量 的 
表达 ( 即 输入 上 下 文 来 预测 当前 词 ), 本 文 使 用 的 就 是 CBOW 
模型 。 
1.3 文本 相似 度 计算 

问题 相似 性 检测 的 核心 是 文本 相似 度 计算 。 在 自然 语言 


理 方法 是 不 一 样 的 ， 由 于 在 文本 语 料 中 句子 的 长 度 是 不 固定 
的 ， 就 需要 把 它 处 理 成 和 图 像 的 二 维和 矩阵 类 似 的 结构 才能 
进行 实验 ， 一 方面 每 个 句子 应 该 扩充 到 最 大 句子 长 度 ， 另 一 
方面 使 用 词 租 入 直接 在 神经 网 络 中 从 头 开始 训练 词 向 量 ， 词 
向 量 的 训练 可 以 使 用 FastText[7] 或 者 word2vecD] 等 方法 , 把 训 
练 好 的 词 向 量 作为 神经 网 络 中 嵌入 层 的 权重 ,之 后 进行 微调 。 
Kim f CNN 的 经 典 构 造 ， 将 长 度 不 同 的 过 滤器 在 文本 
和 矩阵 上 做 卷 积 操作 ， 文 本 和 矩阵 中 词 向 量 的 长 度 与 过 滤器 的 宽 
度 相 同 ; 接着 将 提取 出 的 向 量 运用 最 大 池 化 进行 实验 ， 最 后 
把 所 有 过 滤器 对 应 的 相应 数字 拼接 起 来 ， 就 能 得 到 对 应 的 句 
子 向 量 。 根 据 CNN 在 NLP 应 用 的 这 些 特点 和 优势 ， 本 文 也 
使 用 CNN 来 搭建 模型 。 
1.2 WRA 

词 嵌 入 在 NLP 中 应 用 广泛 , 该 技术 能 够 把 词语 和 文本 转 
换 成 计算 机 可 以 处 理 的 向 量 形 式 ， 这 是 文本 处 理 的 第 一 步 。 
依据 目前 的 发 展 ， 词 的 向 量化 表示 分 为 以 下 三 种 : 

a) 独 热 表 示 是 过 去 比较 常用 的 表示 方法 , 通过 该 方法 每 
个 词 被 表示 为 一 个 维 数 很 高 的 向 量 ， 向 量 的 维度 代表 了 词 表 
的 大 小 ， 每 个 词 向 量 的 数值 里 只 有 一 个 维度 的 值 为 1， 其 余 
全 为 0， 当 下 的 词 就 由 这 个 1 来 表示 ， 因 此 这 种 方法 表示 的 
司 向 量 就 很 稀疏 。 除 此 之 外 ,这 种 表示 方法 的 不 足 之 处 还 有 : 
a) 词 与 词 之 间 的 关系 都 是 独立 的 ， 对 于 语义 关系 相同 或 相似 
的 信息 无 法 表达 ; (b) 句 子 中 词 的 种 类 数 决 定 了 向 量 维度 的 大 
小 ， 在 很 多 情况 下 这 种 表示 会 导致 词典 变 得 很 大 ; 

b) 词 的 分 布 式 表 示 在 一 定 程度 上 克服 了 这 个 缺点 , 这 种 
表示 可 以 把 词 映 射 到 相对 低 维 、 密 集 的 向 量 空间 里 ， 将 词 符 
号 化 之 后 ， 利 用 向 量 公 式 来 计算 词 之 间 的 相似 性 ， 对 于 上 下 
文 比较 相似 的 词 ， 其 对 应 的 语义 也 是 类 似 的 。 
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处 理 中 ， 文 本 相似 性 分 析 是 一 项 重要 且 具 有 挑战 性 的 任务 。 
近年 来 ， 深 度 学 习 模 型 在 语音 识别 外 和 计算 机 视觉 等 许多 领 
域 都 取得 了 不 错 的 效果 。 在 NLP 领域 中 ,基于 深度 学 习 的 多 
种 模型 设计 和 方法 随后 也 蓬勃 发 展 了 起 来 00。Huang 等 人 0 
提出 一 种 经 典 的 单 语义 模型 DSSM (deep structured semantic 
models) ,该 模型 是 一 个 具有 深层 结构 的 潜在 语义 模型 ， 可 以 
将 查询 和 文档 投影 到 一 个 共同 的 低 维 空间 中 ;文中 还 使 用 ] 了 
一 种 称 为 单词 散 列 的 技术 ， 该 技术 不 仅 可 以 有 效 地 扩展 语义 
模型 ， 而 且 还 能 让 模型 适用 于 大 规模 Web 搜索 应 用 程序 。 但 
是 该 模型 也 有 不 足 之 处 ， 比 如 在 做 相似 度 匹 配 任务 时 ， 使 用 
的 是 无 参 的 余弦 相似 度 匹 配 公式 ;而且 还 忽略 了 单词 之 间 时 
序 关 系 。Mueller 等 人 093 提 出 了 一 种 基于 挛 生 递归 神经 网 络 
的 学 习 文 本 相似 度 的 模型 体系 结构 ， 用 于 学 习 变 长 字符 序列 
的 相似 性 度量 。 该 模型 将 一 堆 字 符 级 双向 长 短期 记忆 网 络 与 
李 生 架构 相 结 合 ,通过 使 用 有 关 字 符 串 对 之 间 相 似 性 的 信息 ， 
学 习 将 可 变 长 度 字 符 串 投影 到 固定 维度 艇 入 空间 中 ; 但 是 在 
区 称 标准 化 的 任务 中 ， 该 模型 应 用 的 是 基于 手动 注释 的 分 类 
法 , 比较 费时 费力 .Pang 等 人 [3 提出 了 Match Pyramid 模型 ， 
该 模型 将 文本 匹配 作为 图 像 识 别 ， 把 图 像 识别 中 的 卷 积 神经 
网 络 思想 迁移 到 了 文本 匹配 中 ， 通 过 匹配 矩阵 捕获 不 同 层次 
的 匹配 模式 ， 从 单词 、 短 语 到 整 句 话 ， 论 文 主要 思想 就 是 将 
文本 匹配 建 模 为 图 像 识别 ， 将 匹配 矩阵 作为 图 像 。 由 于 这 种 
方法 是 构造 静态 的 近邻 图 ， 一 方面 依赖 先 验 知识 ， 另 一 方 相 
难以 获得 句子 对 的 最 优 表示 。 鉴 于 这 个 缺陷 , 本 文采 用 SCNN 
深度 学 习 模型 ， 提 出 一 种 借助 SCNN 生成 可 学 习 文 本 内 容 矩 
阵 的 方法 ， 以 此 捕获 文本 中 的 关键 性 信息 ， 从 而 更 好 地 识别 
和 检测 问答 系统 的 相似 问题 。 
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图 1 模型 结构 : auto-learning MatchPyramid 


Fig.1 Model structure : auto-learning MatchPyramid 
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2  AutoLMP 模型 


本 文 提出 一 种 新 的 深度 文本 匹配 框架 ， 称 之 为 
AutoLMP (auto-learning match pyramid )。 本 文 模型 主要 的 灵 
感 来 自 图 像 识别 ， 通 过 将 文本 映射 为 一 张 图 片 来 构建 基于 卷 
积 神经 网 络 的 文本 匹配。 总 体 框架 如 图 1 所 示 。 

本 文 的 AutoLMP 框架 主要 由 三 部 分 组 成 : 8) 数据 预 处 理 ， 
这 部 分 将 句子 对 向 量化 ， 为 近邻 图 的 生成 做 好 数据 准备 ;b) 
本 文 提出 的 近邻 图 的 生成 过 程 ， 其 中 包括 自学 习 近 邻 图 的 生 
成 过 程 和 先 验 知识 近邻 图 的 生成 过 程 ，c) 文 本 匹配 ， 包 括 层 
级 CNN 和 多 层 感知 器 。 
2.1 构建 近邻 图 

一 个 句子 对 和 一 幅 图 像 有 许多 相似 之 处 ， 比 如 : a) 句 子 
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生成 ， 可 以 用 式 〈1) 表示 ， 其 中 : fg 
别 表示 由 句子 对 分 别 生 成 的 扒 倒 图 (stacking gragh); wi 和 vi 
分 别 表示 8 和 8g 通过 SCNN 学 习 到 的 句子 对 向 量 ; 而 近邻 图 


学 习 的 SCNN 


Ms 则 由 wi 和 v; 点 乘 得 到 。 下 面 本 文 将 呈现 更 多 的 细节 。 
w»v; =SCNN(g, ) (1) 
M, =w, v 2) 


本 文 构建 的 SCNN 如 图 3 所 示 。 它 是 由 三 层 全 卷 积 神经 
网 络 组 成 ， 每 层 卷 积 层 的 输出 都 进行 归 一 化 ， 并 且 使 用 Relu 
激活 函数 激活 。SCNN 共享 参数 ， 一 次 处 理 一 个 句子 对 ， 使 


的 基本 构成 元 素 是 单词 ,图像 的 基本 构成 元 素 是 像素 ; b) 句 


子 对 中 单词 与 单词 有 着 或 多 或 少 的 关系 ， 在 图 像 中 像素 与 像 
素 之 间 也 有 着 千 丝 万 缕 的 关系 ; c) 句子 表达 着 某 种 明确 的 信 
息 ， 图 像 也 展现 着 一 个 明确 的 场景 。 因 此 ， 图 像 识别 的 方法 
通过 模式 的 转换 用 到 文本 匹配 任务 上 。 受 Pang 提 
PyramidD3 方 法 的 启发 ， 文 本 匹配 任务 可 以 通过 构建 近邻 图 
来 使 用 深度 卷 积 神经 网 络 来 完成 。 其 中 ， 近 邻 图 是 匹配 句子 
对 的 关系 矩阵 。 例 如 相似 度 矩 阵 ， 它 包含 了 句子 对 之 间 的 丰 
富 信息 。 因 此 ， 构 建 近 邻 图 是 使 用 深度 卷 积 神经 网 络 来 解决 
文本 匹配 的 关键 步 又。 构建 文本 关系 矩阵 有 许多 方法 ， 如 
Match Pyramid 中 计算 句子 对 中 各 个 词 之 间 的 cosine 值 。 但 
是 通过 这 些 方法 所 得 到 的 近邻 图 都 是 经 过 先 验 知识 计算 出 来 
的 ， 近 邻 图 所 包含 的 信息 并 不 代表 是 句子 对 的 最 优 表 示 ， 而 
神经 网 络 却 可 以 通过 学 习 来 获得 更 优 的 近邻 图 ， 因 此 本 文 使 
用 神经 网 络 的 结构 来 构建 模型 。 下 面 将 详细 介绍 提出 的 
AutoLMP 模型 。 

2.2 AutoLMP 模型 细节 

a) 数据 预 处 理 。 在 进行 近邻 图 的 生成 之 前 ， 本 文 首先 将 
句子 对 分 别 词 向 量化 ， 采 用 两 百 万 条 Twitter 消息 预 训练 的 


得 句子 对 可 以 使 用 相同 的 函数 映射 规则 ， 这 样 做 使 得 得 到 的 
句子 都 具有 一 致 性 。 
Input 
1@200*50 
M 
出 的 Match w 
Ws 
W, 
Ws 
We 
Ww; 
Ws 
Stacking Graph 
Convolution& Convolution& Convolution& 
Normalization Normalization Normalization 
图 3 SCNN 整体 结构 
Fig.3 Overall structure of SCNN 
d) SCNN 的 内 部 参数 设置 。 如 图 4 所 示 ， 三 层 卷 积 层 的 


卷 积 核 大 小 分 别 是 1*5. 1*5 和 1*2， 步 长 分 别 是 5、5 和 1， 
卷 积 核 个 数 分 别 是 16、16 和 1。 一 幅 200*50 大 小 的 堆 共 图 
经 过 SCNN 之 后 得 到 200*1 的 向 量 。 本 文 的 卷 积 层 这 样 设 置 
的 意义 有 : (a) 由 于 堆 著 图 每 一 行 代表 一 个 单词 的 向 量 ，1*N 
的 卷 积 核 只 学 习 单词 向 量 内 的 信息 ， ee rail 


word2vec 模型 Glove 生成 的 50 维 向 量 ， 然 后 将 每 个 句子 世 


量 的 噪声 信息 , 如 图 4 所 示 单 词 向 量 W 经 过 SCNN 之 后 仍然 


单词 向 量 纵 向 堆 铸 ， 纵 向 维度 取 人 句子 的 最 长 长 度 为 200， K 
度 不 足 的 用 0 补充 ， 这 样 就 可 以 得 到 一 幅 200*50 的 堆 车 图 。 
b) 文本 匹配 。 如 图 2 所 示 , 字 级 匹配 指 的 是 两 个 文本 中 
单词 之 间 的 匹配 ， 不 仅 包 括 相 同 的 单词 匹配 ， 如 
Comedy-Comedy、 Nights-Nights 、with-with、Kapil-Kapil、 
live-live, 还 包括 类 似 的 词 匹配 ， 如 watch-see; 短语 级 别 匹 配 
指 的 是 短语 之 间 的 匹配 ， 即 N-gram 匹配 ， 指 的 是 n 个 连续 
单词 发 生 的 匹配 ， 如 (What is the way)-(How can). live on the 
sets-live show; 句子 级 别 匹 配 指 的 是 句子 之 间 的 匹配 ， 由 多 
个 较 低 级 别 的 匹配 单元 组 成 ， 如 上 面 的 这 一 对 句子 可 从 单词 
和 短语 层面 进行 匹配 。 当 考虑 包含 多 个 句子 的 段落 之 间 的 匹 
配 时 ， 整 个 段落 将 被 视 为 一 个 长 句子 。 


tren fa REE 


图 2 文本 不 同 层级 匹配 
Fig.2 Different level of text mathing 
c) SCNN 结构 。 正 如 前 面 所 论述 ， 近邻 图 的 构建 是 将 文 
本 匹配 问题 转换 为 图 像 识别 问题 的 关键 。 一 幅 近 邻 图 是 二 维 
的 像素 矩阵 ， 而 每 个 像素 都 与 句子 对 的 单词 一 一 对 应 ， 相 当 
于 将 有 序 的 单词 信息 映射 到 结构 性 的 二 维 矩 了 泗 上 。 为 了 解决 
这 个 问题 ， 本 文 用 M 表示 近邻 图 。M 可 以 从 本 文 构建 的 可 


与 单词 向 量 W 对 应 ;(b) 步 攻 DR NE. 的 信息 
不 一 样 ， 减 少 元 余 信 息 。 另 外， 合适 的 卷 积 核 保证 足够 的 模 
型 学 习 能 


Mx1 dims output1 Mx1 dims output2 


weights 


MxN dims input MxN dims input2 
图 4 SCNN 的 内 部 结构 
Fig.4 Internal structure of SCNN 
e) 自学 习 近 邻 图 的 生成 。 如 图 S 所 示 ， 代 表 每 个 句子 对 
的 堆 医 图 经 过 SCNN 学 习 得 到 其 对 应 的 向 量 , 接着 这 其 中 一 
个 向 量 转 置 之 后 与 另 一 个 向 量 做 点 乘 即 得 到 该 句子 对 的 近邻 
图 Mi。 如 图 5 所 示 ， 单 词 向 量 W 与 Vi 经 过 SCNN 后 被 映射 
到 近邻 图 M. 的 位 置 。 近 邻 图 Mi 上 的 每 个 像素 都 代表 着 句子 
对 中 每 两 个 单词 的 内 容 信息 ， 也 就 是 说 本 文 构造 的 SCNN 学 
习 的 近邻 图 是 代表 着 句子 对 的 完整 内 容 信息 。 
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Content Graph 
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Pang 的 方法 ， 


[| 


成 近邻 


的 方法 中 最 好 的 是 向 量 点 积 方法 ， 所 


以 


该 方法 得 到 


另 一 张 近 邻 图 。 本 文 


自学 习 方 式 生 


内 


k 同 组 成 一 幅 表 达 丰 富 的 
个 通道 上 一 一 对 


容 信息 图 和 采用 Pang 


得 到 的 文本 相似 


Rr 
又 


通道 


邻 图 。 更 重要 的 是 ， 这 


永 的 像素 值 都 是 来 自 相 


T 且 一 个 像素 值 代表 学 习 到 文 
代表 通过 先 验 知识 计算 来 的 文本 相似 度 
的 AutoLMP 模型 的 本 质 。 


本 的 内 容 信 


2.3 AutoLMP 模型 的 关键 方法 一 层级 CNN 
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ZERA 的 特 


缘 特 征 一 样 。 
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层 得 到 的 多 张 特 征 图 
征 。 比 如 这 一 


的 特 


会 被 下 一 层 卷 积 
民 依 然 采用 3*3 的 卷 积 核 去 提取 


UZ AES 


征 ， 由 于 这 些 特征 图 


ve 
中 相 邻 的 九 个 
取 到 


的 是 句 


单词 的 关系 信息 ， 
， 就 像 图 像 识 


是 取 更 


富 的 匹配 信息 。 


Feature Maps 


复杂 更 丰 


"PE 
图 6 层级 CNN 提取 特征 过 程 分 析 


这 样 更 多 的 句子 信 
4 别 中 更 深层 的 网 络 提取 到 更 


卖 提 


的 每 一 格 表示 句子 对 中 相 
的 两 两 关系 的 映射 ， 现 在 每 次 处 型 


子 对 


息 和 


Feature Maps 


Fig.6 Analysis of hierarchical CNN extraction feature 


2.5 ”预测 网 络 和 目标 函 
在 AutoLMP 模型 中 ， 


层 感知 器 来 说 


SE 


单词 
抽象 


鲁 的 分 析 中 可 以 看 到 ， 层 级 CNN 能 够 从 词 到 句子 


F 面 将 详细 剖析 本 文 使 用 的 文本 匹配 层级 CNN 方法 。 

该 方法 可 以 提取 包括 单词 、 词 组 、 句 子 等 不 同 水 平 的 匹配 模 

式 。 对 于 层级 CNN 的 第 一 层 ， 第 K 个 卷 积 核 we 9 在 双 通 道 
近邻 图 上 依次 滑动 做 卷 积 计算 来 产生 一 张 特征 图 mi : 

mp? =f own tmt Lied eue] (3) 

其 中 : g 表示 第 k 个 卷 积 核 的 大 小 。 在 本 文中 使 用 n*n 形式 

的 卷 积 核 和 ReLU 激活 函数 。ReLU 的 公式 为 
0 x<0 

Ra- x20 (0) 

另外 ， 由 于 句子 长 度 大 小 不 一 ， 本 文采 用 动态 池 策略 来 

解决 这 个 问题 。 在 使 用 动态 池 策 略 得 到 的 特征 图 可 以 表示 为 

m^? = max max mb sa à (5) 

x& (4 中 ): d, RI di, 分 别 表 示 动 态 池 对 应 的 池 化 核 的 长 和 宽 


(d,-x/x ,di-y/y )， 池 化 核 的 长 和 宽 由 句子 对 长 度 x 和 y 


决定 。 经 过 池 化 得 到 的 特征 图 大 小 分 别 为 y 。 
在 经 过 第 一 层 卷 积 和 动态 池 化 后 ， 将 得 到 更 高 水 平 的 特 
征 图 mo ,24 12 时 ， 层 级 CNN 继续 加 深层 数 ， 之 后 的 卷 积 
核 最 大 池 化 可 以 泛 化 表示 为 
vi^ - (S3 uomen, enn] m 
l2 2,4,6,... 
m^? — max max m p 
O<p<d, 0<g<d 1+ Pj dia (7) 
1235/1. 
其 中 : o 表示 第 1 层 的 特征 图 个 数 。 
2.4 对 层级 CNN 有 效 性 的 分 析 
CNN 在 图 像 识 别 中 能 够 有 效 地 提取 图 片 的 基本 视觉 元 
素 ， 如 边 和 角 。 在 本 文 提 出 的 AutoLMP 模型 中 ， 层 级 CNN 
也 能 够 提取 丰富 的 语义 信息 和 词 与 词 之 间 的 关系 。 如 图 6 所 
示 ， 本 文 将 举例 展示 层级 CNN 是 如 何 进行 特征 提取 的 。 
a) 在 双 通 道 的 近邻 图 上 ， 格 子 Mi 表示 句子 1 第 i 个 单词 
与 句子 2 第 j 个 单词 的 映射 结果 。 如 图 6 所 示 ， 第 一 层 卷 积 


层 的 两 个 3*3 的 卷 积 核 将 句子 对 
系 依次 被 映射 到 


FP 相 邻 的 三 个 单词 的 两 两 关 
更 高 层次 的 特征 图 上 。 这 种 模式 就 像 卷 积 核 


输出 来 产生 名 


第 i 层 感知 器 的 权 值 ; 


本 文 使 用 了 多 层 感知 器 去 预测 匹 
配 分 数 ， 然 后 从 多 层 感知 器 得 到 一 个 二 分 类 结果 。 现 在 用 两 
明 感知 层 是 如 何 计算 的 : 
s=W6Wm+Db) b, (8) 
其 中 : s 是 句子 对 的 匹配 概率 ; m 是 层级 CNN 的 输出 ，W 是 
5 表示 激活 函数 。 
在 AutoLMP 模型 中 , 本 文 使 用 Sigmoid 函数 处 理 模型 的 
子 对 的 类 别 预测 概率 ， 然 后 使 用 二 分 类 交叉 灶 
loss 作为 目标 函数 来 训练 。 最 后 优化 使 损失 降 到 最 小 ， 即 
loss - Solog(s)+ 1-0) -log(1-h)] (9) 


HLHH : 


3 ”实验 


在 本 章 中 
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意 在 判别 两 个 


3.2 方法 有 效 性 论证 
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对 比 两 个 矩阵 发 现 ， 自 学 习 内 容 信 息 和 矩阵 与 匹配 和 矩阵 一 样 具 单 通道 近邻 图 ) 也 获得 82.77% 的 准确 率 和 78.96% 的 Fl 值 ， 
有 一 定 的 特征 分 布 。 正 如 左 、 右 四 个 红色 方 框 圈 的 区 域 ， 匹 而 采用 本 文 提出 的 整体 方法 AutoLMP 获得 了 最 好 的 效果 ， 
配 和 矩阵 和 自学 习 内 容 信 息 和 矩阵 都 拥有 较 多 的 白 块 ， 也 就 是 匹 其 中 ， 准 确 率 达到 了 84.1596, F1 值 达到 了 79.88%。 实 验 结 
配 和 矩阵 具 有 的 特征 ， 自 学 习 内 容 信息 和 矩阵 也 一 样 拥有 ， 有， 将 文本 匹配 任务 建 模 为 图 像 识别 是 一 个 很 好 的 解决 


TES 
能 够 表示 


而 且 自 学 习 内 容 信息 矩阵 拥有 更 多 的 特征 
本 文 提出 的 AutoLMP 方法 生成 的 


信息 。 综 合 以 


a 5j 
TA 


句子 对 的 内 容 FERIE, 而 且 与 Vu RC 


内 容 信息 矩阵 


步 证 明了 提出 的 AutoLMP 方法 的 优越 性 ， 
本 文 方法 既 利 用 了 通过 先 验 知识 获得 的 近邻 图 ， 又 利用 了 通 
过 学 习 得 到 的 近邻 图 。 双 通道 近邻 图 包含 了 更 丰富 的 文本 特 


邻 关系 ， 


外 


实验 发 现 ， 


句子 组 成 的 近邻 图 能 够 表达 丰富 的 句子 对 


于 句子 对 的 不 同 ， 
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Matching Matrix 自学 习 内 容 信 息 和 矩阵 
图 7 匹配 憩 阵 和 自学 习 内 容 信息 抢 阵 


Fig.7 Matching matrix and self-learning content information matrix 


3.8 方法 对 比 
为 了 验证 AutoLMP 模型 的 
AutoLMP 模型 进行 实验 对 比 。 以 下 是 本 文 使 
先 对 实验 数据 集 进行 预 处 理 ， 包 括 分 词 、 词 干 
写 转换 、 去 掉 售 


征 信息 ， 采 用 层级 CNN 能 够 有 效 地 提取 文本 特征 信息 。 


表 1 Quora 上 的 结果 

Table 1 Results on Quora 
Model ACC(96) F1(%) 
TF-IDF 78.59 69.22 
DSSM 68.53 28.97 
CDSSM 65.78 18.68 
ARC-I 79.96 74.62 
ARC-II 80.14 75.93 
MP-DOT 83.48 79.37 
SingleAutoLMP 82.77 78.96 
AutoLMP 84.15 79.88 


3.6 释义 识别 
实验 结果 列 于 表 2。 可 以 看 到 , 传统 的 简单 模型 如 TF-IDF 
已 经 达到 了 约 69.32% 的 高 精度 ， 尽 管 它 只 使 用 单字 母 匹 配 


了 效 性 ， 本 文 


H 


] 词 等 ; 


之 后 对 归 一 化 的 数据 


用 到 的 模型 ， 首 


用 多 种 方法 与 


言 号 。 本 文 方法 比 TF-IDF 表现 得 更 好 ， 这 表明 层级 卷 积 捕 


化 、 文 本 大 小 


获 的 复杂 匹配 模式 对 文本 匹配 任务 很 重要 。 通 过 与 近期 深度 
模型 的 比较 ， 可 以 看 出 本 文 模型 “AutoLMP〉 表现 优 于 所 有 


集 进行 训练 


模型 ,在 层级 CNN 方法 基础 上 ,无 论 利用 单 通道 的 MP-DOT,， 


基于 需要 完成 的 任务 ，AutoLMP 自动 学 习 滤 波 器 的 权重 值 。 ”还 是 利用 单 通道 的 Single AutoLMP， 都 获得 了 比 传统 方法 更 
针对 文本 和 矩阵 图 ， 为 了 检验 生成 不 同文 本 和 矩阵 方法 的 有 效 性 。”” 优 的 实验 结果 。 虽 然 利用 本 文 提出 的 双 通 道 的 AutoLMP 方 
和 可 靠 性 ， 本 文 设置 了 两 组 实验 ， 每 组 实验 各 采用 不 同 的 经 ” 法 相对 于 前 作 MP-DOT 方法 仅 有 一 点 提高 , 但 是 这 也 证 明 该 
方法 如 TF-IDF, DSSM, ARC-L MP-DOT 等 , 与 本 文 提出 的 。” 方法 是 可 行 的 方法 ， 仍 然 有 很 大 改进 的 空间 。 在 未 来 的 工作 
模型 AutoLMP 进行 比较 实验 。 以 下 是 各 方法 介绍 : 中 ， 本 文 将 更 深入 研究 自学 习 近 邻 图 生成 来 进一步 改进 本 文 
a) TF-IDF. TF-IDF 是 文本 挖掘 中 广泛 使 用 的 方法 。 在” ”的 模型 。 
这 种 方法 中 ， 每 个 文本 都 表示 为 |V| 维 向 量 ， 每 个 元 素 代 表 文 表 2 MSRP 上 的 结果 
本 中 相应 单词 的 TF-IDF 得 分 ， 其 中 |V| 是 词汇 的 数量 。 在 本 Table 2 Results on MSRP 
文 实验 中 ，IDF 得 分 是 在 整个 数据 集中 计算 的 ， 最 终 匹 配 分 Model ACC(%) F1(%) 
数 由 两 个 向 量 的 内 积 产 生 。 TF-IDF 69.32 75.89 
b) DSSM / CDSSM。 由 于 DSSM 和 CDSSM 需要 大 量 数 DSSM 68.87 79.03 
据 进 行 训练 ， 本 文 直接 使 用 已 发 布 的 模型 ,通过 大 型 数据 集 CDSSM 66.89 78.94 
来 训练 本 文 的 测试 数据 。 ARC-I 66.35 78.62 
c) ARC-I / ARC-I。 本 文 使 用 ARC-I 和 ARC-IIU4), ARC-II 66.41 78.55 
于 没有 公开 的 代码 ， 所 以 此 方法 使 用 的 是 与 原始 论文 相同 的 MP-DOT 73.90 80.92 
设置 。 SingleAutoLMP 73.06 79.27 
3.4 实现 细节 AutoLMP 74.55 81.63 
本 文通 过 多 轮 的 测试 ， 最 终 确定 了 超 参 数 的 设置 ， 训练 4 ARE 
过 程 中 误差 传递 采用 随机 梯度 下 降 (SGD) 的 方法 ， 学 习 率 有 个 用 
设置 为 0.1; 对 于 误差 的 更 新 ， 则 采用 批 处 理 的 形式 ， 每 次 本 文 提出 了 基于 自学 习 近 邻 图 的 有 效 层级 CNN 方法 ， 
64 个 样本 一 起 更 新 ， 即 batch 设置 为 64 个 , drop-out 设置 。” 将 文本 信息 编码 为 词 向 量 以 后 ,通过 可 学 习 的 SCNN 得 到 近 
为 0.5, 办 代 轮回 次 数 设置 为 500， 选 择 在 评估 数据 集 上 性 能 只 和 


最 好 的 一 组 参数 作为 训练 的 模型 参数 输出 。 


3.5 ”相似 问题 匹配 评测 
实验 结果 如 表 1 所 示 。 可 
ARC-II 方法 最 高 已 经 获得 80% 以 上 的 ; 


EHR, 


方法 仅 使 用 比较 低级 的 文本 特征 信息 。 


邻 图 的 MP-DOT 方法 在 该 测试 集 的 实验 结果 


升 ， 其 获得 83.48% 的 准确 率 和 79.37% 的 Fl B. BARR) 
自学 习 得 到 的 


文 


提出 方法 


通过 先 


以 看 到 ， 在 传统 方法 中 ， 像 


尽管 这 些 传统 
验 知识 获得 近 


有 了 较 大 的 提 


JÆ 


Hf) Single AutoLMP 方法 ( 仅 采 | 


邻 图 ， 再 结合 先 验 知识 得 到 Matching Matrix， 从 而 得 到 语义 
信息 更 全 面 的 双 通 道 文本 匹配 和 矩阵 。 通 过 多 个 对 比 实验 ， 可 
以 更 好 地 对 相似 文本 进行 匹配 ， 证 明了 本 文 方法 的 可 行 性 和 
有 效 性 。 下 一 步 工 作 将 进一步 探讨 文本 更 多 层级 和 粒度 的 语 
义 分 析 任 务 ， 寻 找 更 适合 文本 语义 相似 性 分 析 的 深度 学 习 
算法 。 
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